iT邦幫忙

2023 iThome 鐵人賽

DAY 11
0
AI & Data

AI語音模型訓練: machine learning 和 deep learning 的學習與應用系列 第 11

Day11 捲積神經網路(Convolutional Neural Network) 上篇

  • 分享至 

  • xImage
  •  

捲積神經網路Convolutional Neural Network

捲積神經網路(Convolutional Neural Network, 簡稱CNN)是深度學習非常經典的一個模型,是一種主要用於圖像處理的學習模型。捲積神經網路的設計靈感來自於人類視覺系統的運作方式,能夠有效地處理和理解圖像資料。
卷積神經網路利用線性運算(像是矩陣乘法)來獲得部分圖像的特徵。所以對計算有一定的需求。
https://ithelp.ithome.com.tw/upload/images/20230926/20160630yNpjcyNoYd.png
圖片來自: 連結


CNN的通常分為三層,分別為

捲積層(Convolutional Layer):

卷積層是捲積神經網絡的核心,他的主要目標是從輸入圖像中提取特徵,以進行後續的處裡,分類。此層運作時將原始圖片,利用滑動的方式使濾波器(Feature Detector,也稱作特徵檢測器,作用是掃描圖像的某部分區域,利用線性運算這些區域中尋找某類型的特徵。)在每個Receptive Field(我自己翻譯成局部的接收域)上對圖像進行處理。
在捲積層經過掃描運算後會得到一張特徵圖(Feature Map),特徵圖反映了在原始圖像中不同位置的特徵。
捲積層還有一個特點,也就是所有在捲積層中的Feature Detector在剛開始都有一樣的權重和偏差,而捲積神經網路就可以透過不斷變更調整各個Detector的權重偏差,進而得到需要的特徵目標。
在開始訓練前,需要調整三個重要的參數,分別是
濾波器數量: 直接決定了輸出的深度。
步幅(Stride): 步幅是指掃描過程中的單位移動長,步幅的大小決定了圖像的細節差別和特徵圖的大小。
填充(Padding): 填充是指在圖像周圍添加額外的像素值,以控制卷積操作的輸出尺寸。填充可以是零,也就是不添加像素,或者是其他填充方式。填充可以用來保持特徵圖的尺寸,防止圖多餘的部分縮小。
https://ithelp.ithome.com.tw/upload/images/20230926/20160630WBwfGY05zx.png
圖片來源: 連結

剩下兩層分別是池化層(Pooling Layer)和全連接層(Fully Connected Layer),會在下一篇接續介紹。


上一篇
Day10 感知器(Perceptron)
下一篇
Day12 捲積神經網路(Convolution Neural Network) 下篇
系列文
AI語音模型訓練: machine learning 和 deep learning 的學習與應用30
圖片
  直播研討會
圖片
{{ item.channelVendor }} {{ item.webinarstarted }} |
{{ formatDate(item.duration) }}
直播中

尚未有邦友留言

立即登入留言